近年来,深度学习(DL)方法的流行程度急剧增加,并且在生物医学科学中的监督学习问题中的应用显着增长。但是,现代生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在深入学习的广义线性模型的背景下,对缺失数据进行了正式处理,这是一种监督的DL架构,用于回归和分类问题。我们提出了一种新的体系结构,即\ textit {dlglm},这是第一个能够在训练时在输入功能和响应中灵活地说明忽略和不可忽视的缺失模式之一。我们通过统计模拟证明,我们的方法在没有随机(MNAR)缺失的情况下胜过现有的监督学习任务方法。我们从UCI机器学习存储库中对银行营销数据集进行了案例研究,在该数据集中我们预测客户是否基于电话调查数据订阅了产品。
translated by 谷歌翻译
现代的高通量单细胞免疫分析技术,例如流量,质量细胞术和单细胞RNA测序,可以轻松地测量多种患者队列中数百万个细胞中大量蛋白质或基因特征的表达。虽然生物信息学方法可用于将免疫细胞异质性与感兴趣的外部变量(例如临床结果或实验标签)联系起来,但它们通常很难适应如此大量的概要细胞。为了减轻这种计算负担,通常有限的单元格是\ emph {sherped}或从每个患者中进行了采样。但是,现有的草图方法无法从稀有细胞群中充分分类稀有细胞,或者无法保留特定免疫细胞类型的真实频率。在这里,我们提出了一种基于内核牛群的新颖素描方法,该方法选择了所有细胞的有限子样本,同时保留了免疫细胞类型的潜在频率。我们在三个流量和质量细胞仪数据集以及一个单细胞RNA测序数据集上测试了方法,并证明了素描的单元格(1)更准确地表示整体蜂窝景观,(2)促进下游分析任务的性能提高,例如根据患者的临床结果对患者进行分类。 \ url {https://github.com/vishalathreya/set-summarization}公开获得用内核放牧的素描实现。
translated by 谷歌翻译
大多数传统的文本到视频检索系统都在静态环境中运行,即,除了用户提供的初始文本查询之外,用户与代理之间没有相互作用。如果初始查询具有歧义,这可能是最佳的,这将导致许多错误的视频检索。为了克服这一限制,我们提出了一个新颖的框架,用于使用对话框(VIRED)进行视频检索,该框架使用户能够通过多轮对话框与AI代理进行交互,用户通过回答由AI代理产生的问题来完善结果的结果。我们的新颖的多模式问题生成器学会了提出问题,以最大程度地提高随后的视频检索性能,使用(i)在与用户的最后一轮互动中检索到的视频候选者以及(ii)基于文本的对话框历史记录所有以前的交互,以生成生成生成结合了与视频检索相关的视觉和语言提示的问题。此外,为了产生最大信息的问题,我们提出了一个信息引导的监督(IGS),该监督指导生成器提出问题,以提高随后的视频检索准确性。我们在AVSD数据集上验证了我们的交互式驾驶框架的有效性,这表明我们的交互式方法的性能明显优于传统的非交互式视频检索系统。我们还证明,我们提出的方法将涉及与真实人类互动的现实环境推广,从而证明了我们框架的稳健性和普遍性
translated by 谷歌翻译
现代单细胞流量和质量细胞仪技术测量血液或组织样品中单个细胞的几种蛋白质的表达。因此,每个分析的生物样品都由数十万个多维细胞特征向量表示,这会产生高计算成本,以预测每个生物样品与机器学习模型的相关表型。如此大的固定基础性也限制了机器学习模型的可解释性,因为难以跟踪每个单个单个细胞如何影响最终预测。我们建议使用内核平均嵌入来编码每个分类生物样品的细胞景观。尽管我们最重要的目标是制作一个更透明的模型,但我们发现我们的方法与通过简单的线性分类器相比,您的方法获得了可比性或更好的精度。结果,我们的模型包含很少的参数,但仍与具有数百万参数的深度学习模型相似。与深度学习方法相反,我们模型的线性和子选择步骤使解释分类结果变得容易。分析进一步表明,我们的方法可以接受丰富的生物学解释性,以将细胞异质性与临床表型联系起来。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度大大增加。尽管在图像数据的分类和操纵中证明了其最初的成功,但DL方法应用于生物医学科学中的问题的应用已显着增长。但是,生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在变化自动编码器(VAE)的背景下提供了对缺失数据的正式处理,这是一种普遍用于缩小尺寸,插补和学习复杂数据的潜在表示的流行无监督的DL体系结构。我们提出了一种新的VAE架构Nimiwae,这是第一个在训练时在输入功能中灵活解释可忽视和不可忽视的缺失模式之一。训练后,可以从缺失数据的后验分布中得出样本,可用于多个插补,从而促进高维不完整数据集的下游分析。我们通过统计模拟证明,我们的方法优于无监督的学习任务和插定精度的现有方法。我们以与12,000名ICU患者有关的EHR数据集的案例研究结束,该数据集具有大量诊断测量和临床结果,其中仅观察到许多特征。
translated by 谷歌翻译
由于货运车数量的增加,在城市地区采用了电动汽车(EV),以减少环境污染和全球变暖。但是,路由最后一英里物流的轨迹仍在继续影响社会和经济可持续性时仍然存在缺陷。因此,在本文中,提出了一种称为超高神性自适应模拟退火的超增压性(HH)方法,并提出了增强学习(HHASA $ _ {RL} $)。它由多军匪徒方法和自适应模拟退火(SA)元启示术算法组成,用于解决该问题称为电容的电动汽车路由问题(CEVRP)。由于充电站数量有限和电动汽车的旅行范围,因此电动汽车必须提前为电池充电时刻,并减少旅行时间和成本。 HH实施的HH改善了多个最低最低知名解决方案,并为IEEE WCCI2020竞赛的拟议基准测试获得了一些高维实例的最佳平均值。
translated by 谷歌翻译
分布式机器学习的传统方法是将学习算法调整到网络中,例如减少更新以遏制开销。相反,基于智能边缘的网络使得可以遵循相反的方法,即定义围绕要执行的学习任务的逻辑网络拓扑,以达到所需的学习表现。在本文中,我们提出了一个系统模型,该模型在监督机器学习的背景下捕获了此类方面,考虑了学习节点(执行计算)和信息节点(提供数据)。然后,我们制定了选择(i)的问题,哪些学习和信息节点应配合以完成学习任务,以及(ii)执行的迭代次数,以最大程度地减少学习成本,同时满足目标预测错误和执行时间。在证明了上述问题的重要属性之后,我们设计了一种名为DoubleClemb的算法,该算法可以找到1+1/| i | -competive解决方案(具有i是一组信息节点),具有分立最差的复杂性。我们的绩效评估,利用现实世界的网络拓扑并考虑分类和回归任务,还表明,双重攀登与最佳,优于最先进的替代方案非常匹配。
translated by 谷歌翻译
We introduce a framework that uses Generative Adversarial Networks (GANs) to study cognitive properties like memorability, aesthetics, and emotional valence. These attributes are of interest because we do not have a concrete visual definition of what they entail. What does it look like for a dog to be more or less memorable? GANs allow us to generate a manifold of natural-looking images with fine-grained differences in their visual attributes. By navigating this manifold in directions that increase memorability, we can visualize what it looks like for a particular generated image to become more or less memorable. The resulting "visual definitions" surface image properties (like "object size") that may underlie memorability. Through behavioral experiments, we verify that our method indeed discovers image manipulations that causally affect human memory performance. We further demonstrate that the same framework can be used to analyze image aesthetics and emotional valence. Visit the GANalyze website at http://ganalyze.csail.mit.edu/.
translated by 谷歌翻译
Temporal relational reasoning, the ability to link meaningful transformations of objects or entities over time, is a fundamental property of intelligent species. In this paper, we introduce an effective and interpretable network module, the Temporal Relation Network (TRN), designed to learn and reason about temporal dependencies between video frames at multiple time scales. We evaluate TRN-equipped networks on activity recognition tasks using three recent video datasets -Something-Something, Jester, and Charades -which fundamentally depend on temporal relational reasoning. Our results demonstrate that the proposed TRN gives convolutional neural networks a remarkable capacity to discover temporal relations in videos. Through only sparsely sampled video frames, TRN-equipped networks can accurately predict human-object interactions in the Something-Something dataset and identify various human gestures on the Jester dataset with very competitive performance. TRN-equipped networks also outperform two-stream networks and 3D convolution networks in recognizing daily activities in the Charades dataset. Further analyses show that the models learn intuitive and interpretable visual common sense knowledge in videos 1 .
translated by 谷歌翻译
We propose a general framework called Network Dissection for quantifying the interpretability of latent representations of CNNs by evaluating the alignment between individual hidden units and a set of semantic concepts. Given any CNN model, the proposed method draws on a broad data set of visual concepts to score the semantics of hidden units at each intermediate convolutional layer. The units with semantics are given labels across a range of objects, parts, scenes, textures, materials, and colors. We use the proposed method to test the hypothesis that interpretability of units is equivalent to random linear combinations of units, then we apply our method to compare the latent representations of various networks when trained to solve different supervised and self-supervised training tasks. We further analyze the effect of training iterations, compare networks trained with different initializations, examine the impact of network depth and width, and measure the effect of dropout and batch normalization on the interpretability of deep visual representations. We demonstrate that the proposed method can shed light on characteristics of CNN models and training methods that go beyond measurements of their discriminative power.
translated by 谷歌翻译